花费 36 ms
特征工程系列:(六)特征选择之方差过滤

有时候,数据集中的某一个特征,方差非常小,非常接近,这样导致的结果就是,没有区分度,那么这个特征其实就不是一个好的特征,因此方差过滤的思想就是,找到那些有区分度的特征(方差大) 如果一个特征服从 ...

Fri Aug 27 22:24:00 CST 2021 0 217
特征工程系列:(三)特征对齐与表征

数据对齐 Z分数标准化     将数据转换成服从标准正太分布的数据     $$     \hat x = \frac{x-\mu}{\sigma}     $$ 归一化     将数据 ...

Mon Jul 19 21:44:00 CST 2021 0 271
特征工程系列:(四)异常值识别与处理

在进行特征工程的时候,为了确保模型的准确性,需要将一些异常数据排除,从而防止模型被带偏。因此,在特征工程任务中,需要一些方法,来识别异常值。 异常值识别 (1) 箱线法 通常用户用某个统计分布对 ...

Mon Aug 02 06:30:00 CST 2021 0 207
特征工程系列:(二)缺失值处理

Pandas判断缺失值 注意,有些数据用0代替特征值,这个时候,可以将0用None 代替,这样,isnull 函数就可以检测出来了,而且fillna 和dropna函数都可以直接工作了。 处理 ...

Mon Jul 19 06:11:00 CST 2021 0 177
特征工程系列:(五)特征构造

有的时候,已有的特征可能并没有有效的表征特征,尤其是针对特殊的业务的时候,极有可能需要对已有的特征进行变换,从而让特征更加能够表征特有的业务。这里介绍几种常用的特征构造方法。 (1) 统计量构造 ...

Wed Aug 04 00:23:00 CST 2021 0 115

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM